智能论文笔记

Robust and Resource-Efficient Data-Free Knowledge Distillation by Generative Pseudo Replay

Kuluhan Binici , Shivam Aggarwal , Nam Trung Pham , Karianto Leman , Tulika Mitra

分类：机器学习 | 人工智能

2022-01-09

无数据知识蒸馏（KD）允许从训练有素的神经网络（教师）到更紧凑的一个（学生）的知识转移在没有原始训练数据。现有的作品使用验证集来监视学生通过实际数据的准确性，并在整个过程中报告最高性能。但是，验证数据可能无法在蒸馏时间可用，使得记录实现峰值精度的学生快照即可。因此，实际的无数据KD方法应该是坚固的，理想情况下，在蒸馏过程中理想地提供单调增加的学生准确性。这是具有挑战性的，因为学生因合成数据的分布转移而经历了知识劣化。克服这个问题的直接方法是定期存储和排练生成的样本，这增加了内存占据措施并创造了隐私问题。我们建议用生成网络模拟先前观察到的合成样品的分布。特别地，我们设计了具有训练目标的变形式自动化器（VAE），其定制以最佳地学习合成数据表示。学生被生成的伪重播技术排练，其中样品由VAE产生。因此，可以防止知识劣化而不存储任何样本。在图像分类基准测试中的实验表明，我们的方法优化了蒸馏模型精度的预期值，同时消除了采样存储方法产生的大型内存开销。

translated by 谷歌翻译

随着边缘设备深度学习的普及日益普及，压缩大型神经网络以满足资源受限设备的硬件要求成为了重要的研究方向。目前正在使用许多压缩方法来降低神经网络的存储器尺寸和能量消耗。知识蒸馏（KD）是通过使用数据样本来将通过大型模型（教师）捕获的知识转移到较小的数据样本（学生）的方法和IT功能。但是，由于各种原因，在压缩阶段可能无法访问原始训练数据。因此，无数据模型压缩是各种作品所解决的正在进行的研究问题。在本文中，我们指出灾难性的遗忘是在现有的无数据蒸馏方法中可能被观察到的问题。此外，其中一些方法中的样本生成策略可能导致合成和实际数据分布之间的不匹配。为了防止此类问题，我们提出了一种无数据的KD框架，它随着时间的推移维护生成的样本的动态集合。此外，我们添加了匹配目标生成策略中的实际数据分布的约束，该策略为目标最大信息增益。我们的实验表明，与SVHN，时尚MNIST和CIFAR100数据集上的最先进方法相比，我们可以提高通过KD获得的学生模型的准确性。

translated by 谷歌翻译